AI资讯新闻榜单内容搜索-DeepSeek

英伟达253B开源新王登场，Llama 4三天变陪衬！直逼DeepSeek-R1成推理天花板

Llama 4刚出世就被碾压！英伟达强势开源Llama Nemotron-253B推理模型，在数学编码、科学问答中准确率登顶，甚至以一半参数媲美DeepSeek R1，吞吐量暴涨4倍。关键秘诀，就在于团队采用的测试时Scaling。

来自主题: AI资讯

7466 点击 2025-04-09 18:02

UI-R1|仅136张截图，vivo开源DeepSeek R1式强化学习，提升GUI智能体动作预测

基于规则的强化学习（RL/RFT）已成为替代 SFT 的高效方案，仅需少量样本即可提升模型在特定任务中的表现。

来自主题: AI技术研报

6744 点击 2025-04-09 09:14

用思维干预直接干预LRM内部推理，三种方式实现DeepSeek-R1有效控制。 | 最新

推理增强型大语言模型LRM（如OpenAI的o1、DeepSeek R1和Google的Flash Thinking）通过在生成最终答案前显式生成中间推理步骤，在复杂问题解决方面展现了卓越性能。然而，对这类模型的控制仍主要依赖于传统的输入级操作，如提示工程（Prompt Engineering）等方法，而你可能已经发现这些方法存在局限性。

来自主题: AI技术研报

4443 点击 2025-04-08 08:50

刚刚，Llama 4深夜开源击败DeepSeek V3！2万亿多模态巨兽抢回王座

原生多模态Llama 4终于问世，开源王座一夜易主！首批共有两款模型Scout和Maverick，前者业界首款支持1000万上下文单H100可跑，后者更是一举击败了DeepSeek V3。目前，2万亿参数巨兽还在训练中。

来自主题: AI技术研报

10173 点击 2025-04-06 18:06

7B扩散LLM，居然能跟671B的DeepSeek V3掰手腕，扩散vs自回归，谁才是未来？

语言是离散的，所以适合用自回归模型来生成；而图像是连续的，所以适合用扩散模型来生成。在生成模型发展早期，这种刻板印象广泛存在于很多研究者的脑海中。

来自主题: AI技术研报

7751 点击 2025-04-06 16:48

DeepSeek R2来了？全新推理时Scaling论文联手清华震撼发布！

DeepSeek新论文来了！在清华研究者共同发布的研究中，他们发现了奖励模型推理时Scaling的全新方法。DeepSeek R2，果然近了。

来自主题: AI技术研报

9768 点击 2025-04-05 01:14

谷歌上线AI旅行功能，Gemini也要养家糊口了

随着DeepSeek R1、OpenAI GTP-4o、Antropic Claude3.7、xAI Grok3纷至沓来，AI大模型已然变成巨头的游戏，“百模大战”也成为了过去式。到了2025年，让用户先把AI用起来，也已经成为了一众厂商的共识。

来自主题: AI资讯

9130 点击 2025-04-04 10:37

解锁600亿美元蓝海：端侧降噪 + RTC大模型重塑AI玩具交互体验

2025 年，DeepSeek 爆火带动传统产品的智能化升级，如传统玩具向 AI 玩具转型。央视新闻调查数据显示，2025 年 1 月，国内某电商平台面向 3-6 岁儿童的 AI 早教玩具销量环比增长 6 倍。咨询公司 IMARC 的预测数据显示，2024 年全球 AI 玩具市场规模已达 181 亿美元，预计到 2033 年将增长至 600 亿美元。

来自主题: AI资讯

9413 点击 2025-04-03 10:26

在DeepSearch中用DeepSeek-R1来做动作决策会更好么？

众所周知，DeepSeek R1 这种模型在推理任务上很能打，尤其是在数学和编程这些逻辑性强的领域。那么我们能直接把这种强大的推理能力搬到 DeepSearch 这种需要动态规划、多轮交互的深度搜索场景里吗？

来自主题: AI技术研报

8026 点击 2025-04-02 14:40

200美金，人人可手搓QwQ，清华、蚂蚁开源极速RL框架AReaL-boba

由于 DeepSeek R1 和 OpenAI o1 等推理模型（LRM，Large Reasoning Model）带来了新的 post-training scaling law，强化学习（RL，Reinforcement Learning）成为了大语言模型能力提升的新引擎。然而，针对大语言模型的大规模强化学习训练门槛一直很高：

来自主题: AI技术研报

11620 点击 2025-03-31 15:07